智能论文笔记

Adaptive Control of Client Selection and Gradient Compression for Efficient Federated Learning

Zhida Jiang , Yang Xu , Hongli Xu , Zhiyuan Wang , Chen Qian

分类：机器学习

2022-12-19

Federated learning (FL) allows multiple clients cooperatively train models without disclosing local data. However, the existing works fail to address all these practical concerns in FL: limited communication resources, dynamic network conditions and heterogeneous client properties, which slow down the convergence of FL. To tackle the above challenges, we propose a heterogeneity-aware FL framework, called FedCG, with adaptive client selection and gradient compression. Specifically, the parameter server (PS) selects a representative client subset considering statistical heterogeneity and sends the global model to them. After local training, these selected clients upload compressed model updates matching their capabilities to the PS for aggregation, which significantly alleviates the communication load and mitigates the straggler effect. We theoretically analyze the impact of both client selection and gradient compression on convergence performance. Guided by the derived convergence rate, we develop an iteration-based algorithm to jointly optimize client selection and compression ratio decision using submodular maximization and linear programming. Extensive experiments on both real-world prototypes and simulations show that FedCG can provide up to 5.3$\times$ speedup compared to other methods.

translated by 谷歌翻译

PetLock:A Genderless and Standard Interface for the Future On-orbit Construction

Yuntao Li , Zichun Xu , Xiaohang Yang , Zhiyuan Zhao , Jingdong Zhao , Hong Liu

分类：机器人

2022-09-09

模块化设计是未来大型空间设施的On On On构造技术的基础。标准界面是未来空间机器人系统和空间设施模块化设计的关键技术。本文介绍了Petlock的设计和测试，标准和测试无性别界面可以在未来的模块化空间机器人操纵器和航天器之间传递机械载荷，功率和数据。Petlock采用完全无性别的设计，包括连接面，锁定机制，数据和功率接口。连接表面提供了较大的翻译和旋转错位耐受性，由于其120度对称和3D形状的设计。锁定机制具有三个锁定引脚撤回结构设计，这是简单可靠的。高锁定力，高容忍度，高可靠性和低成本的优势，Petloc K在未来的轨道施工任务中具有很大的应用潜力。

translated by 谷歌翻译

A Combined Inverse Kinematics Algorithm Using FABRIK with Optimization

Zichun Xu , Yuntao Li , Xiaohang Yang , Zhiyuan Zhao , Jingdong Zhao , Hong Liu

分类：机器人

2022-09-06

向前和向后触及逆运动学（FABRIK）是一种启发式逆运动求解器，逐渐应用于具有快速收敛和生成更真实配置的优势的操纵器。但是，在高误差限制下，Fabrik表现出不稳定的收敛行为，这对于操纵器的实时运动计划是不满意的。在本文中，提出了一种结合Fabrik和顺序二次编程（SQP）算法的新型逆运动学算法，其中Fabrik推迟的关节角度将被视为SQP算法的初始种子，以避免粘在局部最小值中。通过实验评估合并的算法，在高误差约束下，我们的算法比FabRik获得更高的成功率和更快的解决方案时间。此外，联合算法可以在路径跟踪中为UR5和KUKA LBR IIWA 14 R820操纵器生成连续轨迹，而无姿势误差和最终效应器的允许位置误差。

translated by 谷歌翻译

ADTR: Anomaly Detection Transformer with Feature Reconstruction

Zhiyuan You , Kai Yang , Wenhan Luo , Lei Cui , Yu Zheng , Xinyi Le

分类：计算机视觉

2022-09-05

由于缺乏异常样品，因此仅具有正常样本的先验知识的异常检测才吸引更多的注意力。现有的基于CNN的像素重建方法遇到了两个问题。首先，重建源和目标是包含无法区分的语义信息的原始像素值。其次，CNN倾向于很好地重建正常样品和异常情况，使它们仍然很难区分。在本文中，我们提出异常检测变压器（ADTR）将变压器应用于重建预训练的特征。预训练的功能包含可区分的语义信息。同样，采用变压器限制以很好地重构异常，因此一旦重建失败，就可以轻松检测到异常。此外，我们提出了新的损失函数，使我们的方法与正常样本的情况以及具有图像级和像素级标记为异常的异常情况兼容。通过添加简单的合成或外部无关异常，可以进一步提高性能。广泛的实验是在包括MVTEC-AD和CIFAR-10在内的异常检测数据集上进行的。与所有基线相比，我们的方法取得了卓越的性能。

translated by 谷歌翻译

Be Your Own Neighborhood: Detecting Adversarial Example by the Neighborhood Relations Built on Self-Supervised Learning

Zhiyuan He , Yijun Yang , Pin-Yu Chen , Qiang Xu , Tsung-Yi Ho

分类：机器学习

2022-08-31

深度神经网络（DNNS）在各个领域都取得了出色的性能。但是，DNNS对对抗性示例（AE）的脆弱性阻碍了他们的部署到关键的安全应用程序。本文提出了一个新颖的AE检测框架，以值得信赖的预测为止。除了通过区分AE的异常关系与其增强版本（即邻居）与两个前景：表示相似性和标签一致性来区分检测。与监督的学习模型相比，使用现成的自我监督学习（SSL）模型用于提取表示形式，并预测其高度信息代表能力的标签。对于干净的样本，它们的表示和预测与邻居密切一致，而AE的邻居差异很大。此外，我们解释了这一观察结果，并表明，通过利用这种差异可以有效地检测到AE。我们为超越的有效性建立了严格的理由。此外，作为一种插件模型，超越的范围可以轻松与受过对抗训练的分类器（ATC）合作，从而实现最先进的（SOTA）鲁棒性精度。实验结果表明，超越表现的基线较大，尤其是在自适应攻击下。在SSL上建立的强大关系网络的授权下，我们发现超出了检测能力和速度方面优于基准。我们的代码将公开可用。

translated by 谷歌翻译

A Unified Understanding of Deep NLP Models for Text Classification

Zhen Li , Xiting Wang , Weikai Yang , Jing Wu , Zhengyan Zhang , Zhiyuan Liu , Maosong Sun , Hui Zhang , Shixia Liu

分类：自然语言处理 | 机器学习

2022-06-19

深层自然语言处理（NLP）模型的快速发展导致迫切需要对这些模型单独提出的统一理解。由于缺乏解释低级（例如单词）和高级（例如，短语）特征的统一措施，现有方法无法满足一个框架中不同模型的需求。我们已经开发了一个视觉分析工具DeepNLPVI，以使对文本分类的NLP模型有统一的理解。关键思想是一种基于信息的度量，它提供了有关模型的每一层如何维护样本中输入单词信息的定量解释。我们在每个层的内部和界面信息中对单词对最终预测的重要性以及单词之间的关系（例如短语的形成）进行建模。多层可视化由语料库级，样本级别和单词级可视化组成，支持从整体训练集到单个样本的分析。关于分类任务和模型比较的两个案例研究表明，DeepNLPVI可以帮助用户有效地确定样本和模型架构引起的潜在问题，然后进行明智的改进。

translated by 谷歌翻译

A Unified Model for Multi-class Anomaly Detection

Zhiyuan You , Lei Cui , Yujun Shen , Kai Yang , Xin Lu , Yu Zheng , Xinyi Le

分类：计算机视觉

2022-06-08

尽管无监督的异常检测迅速发展，但现有的方法仍需要训练不同对象的单独模型。在这项工作中，我们介绍了完成具有统一框架的多个类别的异常检测。在如此具有挑战性的环境下，流行的重建网络可能属于“相同的快捷方式”，在这种捷径中，正常样本和异常样本都可以很好地恢复，因此无法发现异常值。为了解决这一障碍，我们取得了三个改进。首先，我们重新审视完全连接的层，卷积层以及注意力层的配方，并确认查询嵌入（即注意层内）在防止网络学习快捷键方面的重要作用。因此，我们提出了一个层的查询解码器，以帮助建模多级分布。其次，我们采用一个邻居掩盖的注意模块，以进一步避免从输入功能到重建的输出功能的信息泄漏。第三，我们提出了一种功能抖动策略，即使使用嘈杂的输入，也敦促模型恢复正确的消息。我们在MVTEC-AD和CIFAR-10数据集上评估了我们的算法，在该数据集中，我们通过足够大的利润率超过了最先进的替代方案。例如，当在MVTEC-AD中学习15个类别的统一模型时，我们在异常检测的任务（从88.1％到96.5％）和异常定位（从89.5％到96.8％）上超过了第二个竞争者。代码将公开可用。

translated by 谷歌翻译

Few-shot Object Counting with Similarity-Aware Feature Enhancement

Zhiyuan You , Kai Yang , Wenhan Luo , Xin Lu , Lei Cui , Xinyi Le

分类：计算机视觉

2022-01-22

这项工作研究了很少的对象计数的问题，该问题计算了查询图像中出现的示例对象的数量（即由一个或几个支持图像描述）。主要的挑战在于，目标对象可以密集地包装在查询图像中，从而使每个单一对象都很难识别。为了解决障碍，我们提出了一个新颖的学习块，配备了相似性比较模块和功能增强模块。具体来说，给定支持图像和查询图像，我们首先通过比较每个空间位置的投影特征来得出分数图。有关所有支持图像的得分图将共收集在一起，并在示例维度和空间维度上均标准化，从而产生可靠的相似性图。然后，我们通过使用开发的点相似性作为加权系数来增强使用支持功能的查询功能。这样的设计鼓励模型通过更多地关注类似于支持图像的区域来检查查询图像，从而导致不同对象之间的界限更加清晰。在各种基准和培训设置上进行了广泛的实验表明，我们通过足够大的边距超过了最先进的方法。例如，在最近的大规模FSC-147数据集中，我们通过将平均绝对误差从22.08提高到14.32（35％$ \ uparrow $）来超越最新方法。代码已在https://github.com/zhiyuanyou/safecount中发布。

translated by 谷歌翻译

CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark

Yuan Yao , Qingxiu Dong , Jian Guan , Boxi Cao , Zhengyan Zhang , Chaojun Xiao , Xiaozhi Wang , Fanchao Qi , Junwei Bao , Jinran Nie

分类：自然语言处理

2021-12-27

实现通用语言情报是自然语言处理的长期目标，标准评估基准发挥基本和指导作用。我们认为，对于通用语言智能评估，基准本身需要全面和系统。为此，我们提出了Cuge，一种中文语言理解和生成评估基准，具有以下特征：（1）分层基准框架，其中数据集主要选择和组织语言能力 - 任务数据集层次结构。（2）多级评分策略，其中基于分层框架提供了不同级别的模型性能。为了促进CUGE，我们提供了一个公共排行榜，可以自定义，以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。

translated by 谷歌翻译

Injecting Semantic Concepts into End-to-End Image Captioning

Zhiyuan Fang , Jianfeng Wang , Xiaowei Hu , Lin Liang , Zhe Gan , Lijuan Wang , Yezhou Yang , Zicheng Liu

分类：计算机视觉 | 自然语言处理

2021-12-09

近年来在开发更好的图像标题模型方面取得了巨大进展，但其中大多数依赖于单独的对象探测器来提取区域特征。最近的视觉语言研究通过利用网格表示来实现更灵活的模型训练和更快推理速度的速度来转向探测器趋势。但是，这种发展主要专注于图像理解任务，并且对标题生成任务的研究仍然较少。在本文中，我们涉及一种更好的无需探测器图像标题模型，并提出了一种基于纯视觉变压器的图像标题模型，称为VITCAP，其中使用了网格表示而不提取区域特征。为了提高性能，我们介绍了一种新颖的概念令牌网络（CTN）来预测语义概念，然后将它们纳入端到端的标题。特别地，CTN是基于视觉变换器构建的，并且旨在通过分类任务预测概念令牌，其中包含丰富的语义信息极大地利益标题任务。与以前的探测器的模型相比，Vitcap大大简化了架构，同时在各种具有挑战性的图像标题数据集上实现了竞争性能。特别是，Vitcap分别达到138.1苹果酒分数，即在Nocaps上的Coco-Caption Karpatal-Splity，93.8和108.6苹果酒分数和Google-CC标题数据集上分别达到138.1苹果酒分数。

translated by 谷歌翻译